#coding:utf-8
import jieba
import re
'''
案例：将a文件中的所有字符分词，只留下字母、数字、下划线
将符合条件的字符存入b文件中，每一行显示一个词语
'''
#将a文件的词语分词后放入b文件中
f1 = open('英雄联盟.txt','r',encoding='UTF-8')
#读文件内容，去除换行符 \n   str.replace(a,b)
s = f1.read().replace('\n','')
#匹配所有的非字母、数字、下划线替换为空白
str = re.sub(r'\W+','',s)
#print(str)
#使用jieba库切割字符串
str_list = jieba.lcut(str)
f2 = open('英雄联盟分词.txt','w',encoding='UTF-8')
#str.join(seq) 序列的join方法 将序列中的元素以某个字符连接起来
f2.write('\n'.join(str_list))
f1.close()
f2.close()